Pomoc – KWJP

Listy frekwencyjne KWJP

Niniejsza strona zawiera listy frekwencyjne pojedynczych słów oraz n-gramów utworzone ze zrównoważonego Korpusu Współczesnego Języka Polskiego. Listy zostały zebrane mechanicznie w oparciu o automatyczną lematyzację i znakowanie morfosyntaktyczne, mogą zatem zawierać błędy. Na listach znajdują się wyłącznie słowa zapisane literami alfabetu łacińskiego (z diakrytami), ewentualnie z dywizem.

Listy zostały utworzone w kilku wariantach. Po pierwsze, w podziale na trzy główne podzbiory gatunkowe korpusu: fikcję, fakt i publicystykę prasową. Po drugie, ze względu na zamieszczone na nich formy: hasłowe oraz tekstowe, dodatkowo w podziale na formy rozróżniające i nierozróżniające wielkości liter. Zarówno listy pojedynczych słów, jak i listy n-gramów są ograniczone do jednostek, które wystąpiły co najmniej 5 razy w całym korpusie (liczby wystąpień w poszczególnych podzbiorach gatunkowych mogą być mniejsze).

Każda lista składa się z kilku kolumn. Kolumna R zawiera rangi jednostek, czyli kolejne liczby porządkowe na liście w porządku częstości. Kolumna Jednostka zawiera słowa lub n-gramy, na liście form hasłowych znajduje się dodatkowo kolumna POS zawierająca klasę gramatyczną (fleksem), którą przypisano do danej formy hasłowej — na liście mogą być zatem hasła homonimiczne przypisane do różnych klas. Kolumna F zawiera czestość jednostki w korpusie, kolumna IPM (ang. items per million) zaś częstość względną przeliczoną na milion słów. Kolumna ARF (ang. average reduced frequency) zawiera wartość miary tzw. skorygowanej frekwencji o takiej nazwie, której celem jest zredukowanie zwykłej częstości słów występujących w korpusie w bliskich skupiskach, np. w jednym lub kilku tekstach, w przeciwieństwie do słów dość równomiernie rozłożonych w całym korpusie, dla których wartość ARF będzie stosunkowo bliska zwykłej częstości (F). Z kolei kolumna 1-DP zawiera wartość miary dyspersji DP (ang. deviation of proportions) przeskalowanej w taki sposób, by słowa względnie równomiernej dystrybucji w korpusie miały wartości bliskie 1, a słowa o bardzo nierównomiernej dystrybucji — bliskie 0. Przykładowo przymiotnik spacjalny ma w korpusie 151 wystąpień, ale wszystkie znajdują się w jednej książce. Z tego powodu jego wartość częstości skorygowanej (ARF) została zredukowana aż do 1,170, czyli o dwa rzędy wielkości, wartość 1-DP wynosi zaś 0,001, co również wskazuje na bardzo nierówomierne rozmieszczenie w korpusie. Więcej o miarach ARF i DP znaleźć można w artykułach w Bibliografii.

Listy n-gramów zawierają też dodatkowo kolumnę Dice zawierającą wartość tzw. współczynnika Dice’a interpretowanego jako miara siły współwystępowania dwóch lub większej liczby słów. Współczynnik ten osiąga maksymalną wartość 1 dla słów, które występują w tekstach wyłącznie obok siebie i nie występują w ogóle w innych kontekstach. Często są to np. obcojęzyczne nazwy własne: Yad Vashem, Kuala Lumpur, Siem Reap. Niższe wartości będą miały połączenia słów relatywnie często występujących wspólnie, ale używanych również poza tym kontekstem, np. błona śluzowy, domiar złe, oskarżyciel posiłkowy. Wartości bliskie zeru będą miały n-gramy słów występujących rzadko obok siebie oraz relatywnie często w innych kontekstach.

Wszystkie kolumny można filtrować za pomocą pól znajdujących się w ich dolnej części. Kolumny o wartościach liczbowych (R, F, IPM, ARF, 1-DP) można filtrować za pomocą zakresów wartości. Kolumnę POS można filtrować za pomocą menu zawierającego wszystkie wartości kategorii gramatycznych z tagsetu. Kolumnę Jednostka można filtrować za pomocą wpisania dowolnego podciągu liter szukanego słowa. W polu tym można korzystać z wyrażeń regularnych. Warto pamiętać, że znaki ^ i $ oznaczają odpowiednio początek i koniec słowa. Przykładowo wyrażenie ^szczęś znajdzie wszystkie słowa zaczynające się od szczęś-, wyrażenie liwy$ znajdzie wszystkie słowa kończące się na -liwy. Z kolei wyrażenie ^święto.*[iy]$ znajdzie wszystkie słowa zaczynające się od święto- i kończące się na -i lub -y, a zatem będą wśród nich zarówno przymiotniki świętokrzyski i świętojański, jak i świętokradczy i świętobliwy.

Listy frekwencyjne KWJP można również pobrać z repozytorium.

Bibliografia

Savický, P., Hlaváčová, J. Measures of word commonness, Journal of Quantitative Linguistics, 9, 215-231, 2002.
Hlaváčová, J., New Approach to Frequency Dictionaries - Czech Example, w: Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06), Genoa, Italy, 2006.
Gries, S. T., Dispersions and adjusted frequencies in corpora. International Journal of Corpus Linguistics, 13(4), 403-437, 2008.

Analyzing Dispersion

A Practical Handbook of Corpus Linguistics